MARCO排名数据集已广泛用于培训IR任务的深度学习模型,在不同的零射击方案上实现了相当大的效果。但是,这种类型的资源是英语以外的语言的稀缺。在这项工作中,我们呈现MMARCO,MS Marco段落的多语言版本,该数据集包括使用机器翻译创建的13种语言。我们通过微调单语和多语言重新排名模型以及此数据集的密集多语言模型进行了评估。实验结果表明,在我们翻译的数据集上微调微调的多语言模型可以单独对原始英文版的模型进行微调的卓越效果。我们蒸馏的多语言RE-RANKER与非蒸馏模型具有竞争力,而参数较少的5.4倍。最后,我们展现了翻译质量和检索效果之间的正相关性,提供了证据,即翻译方法的改进可能导致多语言信息检索的改进。翻译的数据集和微调模型可在https://github.com/unicamp-dl/mmarco.git上获得。
translated by 谷歌翻译
As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.
translated by 谷歌翻译
在这项工作中,我们提出了一个端到端双耳语音合成系统,该系统将低抑制音频编解码器与强大的双耳解码器结合在一起,该解码器能够准确地进行语音双耳化,同时忠实地重建环境因素,例如环境噪声或混响。该网络是经过修改的矢量定量变异自动编码器,经过训练,采用了几个精心设计的目标,包括对抗性损失。我们在具有客观指标和感知研究的内部双耳数据集上评估了所提出的系统。结果表明,所提出的方法比以前的方法更接近地面真相数据。特别是,我们证明了对抗性损失在捕获创建真实听觉场景所需的环境效果中的能力。
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
学习异质治疗效果(HTE)是许多领域的重要问题。大多数现有方法都使用单个治疗组和单个结果指标来考虑设置。但是,在许多现实世界中,实验始终如一 - 例如,在互联网公司中,每天进行A/B测试,以衡量许多感兴趣的不同指标的潜在变化的影响。我们表明,即使一个分析师在一个实验中仅关心HTES来实现一个指标,也可以通过共同分析所有数据来利用交叉实验和交叉结果度量相关性来大大提高精度。我们在张量分解框架中对这个想法进行形式化,并提出了一个简单且可扩展的模型,我们称之为低级或LR-LR-LERNER。合成数据和实际数据的实验表明,LR-LEARNER可以比独立的HTE估计更精确。
translated by 谷歌翻译
在本文中,我们提出了一种简单的面向事件的算法,用于通过事件摄像机的新技术检测具有已知频率的像素大小的信号。此外,我们分析了算法从随机波动中滤除所需的周期性信号的能力。我们证明了这种能力,并展示了算法如何在暮光期间区分闪烁的路灯的信号,该路线的频率为100 Hz,而太阳闪光源自视野中遥远的建筑物的窗户。
translated by 谷歌翻译